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摘要 : [目的 /意义 ] 将 用 户 使 用 行为 纳入 百科 词 条 评价 体系 中 ,从 多 维度 视角 对 百度 百科 词 条 进行 综合 评 
价 。[ 方 法 /过程 ] 结 合 国内 外 学 者 的 研究 成 果 , 基 于 4 个 维度 ,选取 了 12 项 量化 指标 作为 研究 指标 ,对 百度 百 
科 词 条 作 了 综合 评价 。[ 结果 /结论 ] 用 户 使 用 行为 指标 与 链接 指标 在 词 条 综合 评价 中 起 到 相对 重要 的 作用 ; 研 
究 丰 富 了 百科 词 条 研究 的 评价 体系 ,但 局 限 是 未 考虑 丰富 度 \ 严 说 性 等 难以 准确 量化 的 特征 。 
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集中 在 以 下 儿 方 面 : 


随 着 Web2.0 技术 的 应 用 ,网 络 百科 作为 典型 的 
Wi 类 产品 ,取得 了 迅猛 的 发 展 ,其 中 百度 百科 正 是 


(1) 定 性 评价 研究 。 主 要 是 参考 传统 百科 词 条 的 
标准 ,对 要 评价 的 词 条 作 定 性 分 析 , 利 用 专家 或 个 人 的 
知识 进行 人 工 评审 。 许 多 学 者 研究 了 影响 词 条 质量 的 


国 凑 网 络 百科 中 最 具 代 表 性 的 产品 。 词 条 (或 条 目 ) 
是 网 络 百科 的 最 小 单位 ,截至 2019 年 2 月 8 日 ,百度 
音 科 已 有 15 906 266 个 词 条 ,共有 670 万 人 参与 了 纺 
全 SI 间 条 是 百度 百科 的 核心 内 容 ,百度 百科 将 词 条 细 
分 尖 了 艺术 .科学 .自然 ,文化 .地理 等 11 大 类 , 词 条 结 
构 正 常 固定 化 ,包含 词 条 名 称 、 词 条 摘要 、 表 格 形式 的 
词 获 基 本 信息 .目录 . 词 条 正文 .参考 注释 . 词 条 标签 等 
等 : 

网 络 百 科 内 容 主要 由 用 户 生 成 , 受 词 条 编辑 者 自 
身 前 主观 性 影响 较 大 ,导致 网 络 百科 用 户 使 用 者 与 管 
理 者 并 不 能 很 好 地 衡量 词 条 的 质量 。 虽 然 百度 百科 制 
定 专 有 的 审核 制度 ,但 词 条 信息 质量 很 大 程度 上 取决 
于 广大 编辑 者 的 素质 , 由 于 编辑 者 在 编辑 过 程 中 并 不 
会 完全 遵循 严谨 的 结构 化 过 程 , 加 上 网 络 百科 的 词 条 
数量 如 今 呈 现 爆 炸 式 增长 的 趋势 ,导致 词 条 质量 愈 发 
参差 不 齐 ,也 影响 了 百科 用 户 的 正常 使 用 体验 。 百 科 
词 条 的 综合 评价 研究 ,从 始 至 终 是 一 个 重要 的 问题 。 


2 研究 现状 


因素 ,创建 了 一 套 客 观 的 评价 标准 。 维 基 百 科 网 站 "" 
自己 就 提出 了 详细 的 条 目 质量 评级 标准 ,通过 同行 评 
的 方式 ,将 词 条 分 为 典范 、 甲 优良. 乙 、 丙 、 初 .小 作 
品 等 不 同 的 级 别 ;B. Stvilia ”等 探索 了 不 同文 化 和 社区 
背景 对 信息 质量 评估 的 影响 ,以 及 将 一 些 基于 文章 编 
辑 的 指标 用 于 不 同情 境 下 的 维基 百科 自动 化 质量 测量 
的 可 行 性 ;S. Lichtenstein "等 建立 了 维基 百科 的 知识 
生产 模型 并 分 析 了 模型 的 信息 质量 ;0. Arazy'" 等 建立 
了 一 个 理论 模型 ,解释 了 成 员 知 识 库 的 多 样 性 任务 冲 
突 及 成 员 角 色 三 个 因素 如 何 相 互 作用 以 确定 维基 百科 
词 条 的 质量 ,并 对 96 篇 词 条 进行 了 实证 研究 ;J. Liu'” 
等 分 析 了 编辑 者 之 间 的 合作 和 词 条 质量 之 间 的 关系 ， 
并 且 进 行 了 实证 研究 ,有 助 于 改进 维基 百科 的 质量 ;E. 
Yaaril 等 选择 64 名 用 户 评 估 维 基 百 科 的 5 篇 词 条 质 
量 ,探讨 了 信息 消费 者 在 协作 式 的 协作 环境 中 对 内 容 
质量 进行 评估 的 方式 ;K. 0sman™" 等 通过 扎根 的 方法 ， 
分 析 了 147 个 关于 维基 百科 质量 的 对 话 ,探讨 了 词 条 
冲突 对 维基 百科 质量 的 作用 ;D. Lewandowski ”等 总 结 
了 对 百科 词 条 质量 的 扩展 讨论 ,开发 了 一 种 评估 维基 


TH 


内 外 目前 对 于 网 络 百科 的 质量 评价 的 研究 主要 


百科 词 条 的 局 发 式 方法 ,并 且 将 维基 百科 网 页 在 搜索 
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维度 视角 下 百度 百科 词 条 评价 指标 构建 [J]. 图 书 情报 工作 ,2019 ,63(12) :114 - 120. 


引擎 的 测试 结果 ,与 实验 人 员 的 人 工 判断 相关 性 的 结 
果 进 行 了 比较 分 析 。 anne de oe tei 


了 维基 百科 词 条 的 信息 质量 内 涵 , 总 结 了 国内 外 对 于 
维基 百科 词 条 信息 ce 


标 ,并 且 构建 了 一 种 包含 概念 .关系 、 分 类 和 方法 学 的 
多 维 结构 的 启发 式 评价 框架 ,对 维基 百科 词 条 进行 信 
息 质量 评价 ; 赵 文 轩 '" 则 详细 分 析 了 网 络 百科 的 特点 
tt ae 的 信 
息 质量 ,给 出 了 优质 词 条 的 质量 评价 标准 ,并 详细 阐述 
影响 网 络 百科 词 条 ee ee 
了 网 络 百 科 信息 质量 的 动态 演进 特点 ,提出 了 针对 性 
的 评价 策略 ,注重 过 程 评价 .考虑 生命 周期 特性 、 需 要 
第 三 方 积 极 介 入 。 
一 (2) 评价 指标 体系 的 构建 。 这 类 研究 基于 统计 指 
标 3 省 过 量化 的 评价 方法 ,建立 了 针对 词 条 质量 的 详细 
其 他 的 统计 指标 体系 。A. Liht2 根 据 已 建立 的 百科 全 
书信 类 法 ,从 编辑 历史 信息 的 角度 ,提取 出 了 “多 样 
性“ 严谨 性 "两 个 评价 指标 ,用 以 评判 词 条 质量 ;F. 
Chevalier "等 通过 可 视 化 的 方法 ,提出 了 五 个 维基 百 
和 六 章 的 成 熟 度 和 质量 评估 指标 ,保持 着 质量 准确 性 
的 加 时 显著 缩短 了 评估 时 间 ; 爹 燕 , 周 婷 等 研究 了 
训 二 意义 上 的 协同 内 容 创建 系统 ,采用 层次 分 析 法 建 
识 六 具体 的 评价 指标 体系 ,从 百度 百科 的 实际 情况 出 
5 构建 了 针对 性 的 百度 百科 的 评价 指标 体系 ,并 进行 
3 凑 证 ; 张 博 "”) 等 采用 层次 分 析 法 ,综合 了 用 户 需求 
与 海 容 特 征 ,以 维基 百科 为 实例 ,建立 了 4 个 层面 .14 
个 指标 的 内 容 质量 评估 模型 ; 金 燕 " 从 用 户 体验 的 角 
大 (建立 了 协同 内 容 创建 系统 的 质量 评价 指标 体系 ,并 
且 在 信息 价值 .系统 性 能 .用 户 满意 度 3 个 方面 提出 了 
质量 保证 措施 。 

(3) 自动 评价 研究 。 随 着 计算 机 技术 的 发 展 , 自 
动 评价 方式 也 被 引入 到 网 络 百科 的 词 条 评价 上 来 。 通 
过 选取 合适 的 词 条 特征 ,并 结合 其 他 属性 ,使 用 计算 机 
机 器 学 习 算 法 , 自动 化 完成 词 条 的 评级 工作 。M. 
Warnckewang''""| 等 在 B. Stvilial 等 人 的 工作 基础 上 ， 
最 终 筛选 出 5 个 特征 ,同样 使 用 了 决策 树 算法 对 词 条 
质量 进行 分 类 ;本 EE，Blumenstock' 提出 一 种 简单 的 
仅 通 过 单词 数量 来 测量 维基 百科 词 条 质量 的 方法 ,并 
且 通 过 实证 检验 ,表明 其 效果 要 好 过 许多 复杂 的 方法 ; 
H，Dalip5o 等 探索 了 大 量 的 质量 指标 ,通过 机 器 学 习 
的 方式 ,将 评价 指标 统一 到 同一 个 框架 中 ,并 且 发 现 了 
与 质量 评价 最 相关 的 指标 和 无 关 的 指标 ;L. Calzada 
等 提供 了 一 个 简单 的 信息 质量 模型 ,主要 研究 了 “ 稳 


定 ”" 和 “有 争议 的 ”的 维基 百科 文章 ,并 与 人 工 评估 的 
信息 质量 进行 对 比 。 复 江 南 ” 等 提出 了 15 个 可 量化 
的 客观 指标 ,利用 决策 树 C4.5 分 类 算法 ,构建 了 一 个 
于 评价 维基 百科 页 面 信息 质量 的 自动 分 类 模型 ; 李 
欣 奕 ”选取 内 容 特征 和 编辑 历史 特征 作为 评判 词 条 
质量 的 核心 指标 ,使 用 基于 SVM 的 分 类 方法 和 PageR- 
ank 算法 对 优质 与 劣质 词 条 做 出 区 分 和 排序 ;全 人 召 
娟 “等 选取 了 三 个 网 页 特征 值 ,通过 自动 化 处 理 和 提 
取 网 页 特征 ， ed nen ,实现 了 网 页 质量 的 
自动 化 评价 ; 肖 硅 ,李兵 ” A 性 和 编辑 
者 的 行为 ,筛选 出 15 个 词 条 属性 与 4 个 用 户 属性 , 通 
过 分 类 和 利用 余弦 相似 ee 

科 词 条 的 等 级 。 

(4) 基于 模型 的 排序 评价 。 基 于 特定 的 模型 8 
动 地 计算 词 条 的 质量 值 并 排序 ,从 而 完成 对 词 条 
的 评价 过 程 。M. Hu Ts 
中 的 词 条 及 其 贡献 者 之 间 的 交互 数据 ,提出 了 三 种 质 
量 检测 模型 .Basic Model .PeerReview Model .ProbReview 
Model ,采用 NDCG@k 指标 进行 算法 评价 ,取得 了 不 错 
的 表现 。H. Zeng” 、E. Limis 、P. Dondio'” 等 分 别 使 
不 同 的 模型 ,从 编辑 行为 的 角度 对 词 条 质量 进行 计 
ee T. Wl 
了 一 种 基于 信息 生命 周期 的 方法 ,对 维基 百科 词 条 
量 进行 评价 ;S. Dt 3 和 
内 容 质 量 的 动态 演变 进行 建 模 ,评估 了 维基 百科 的 特 
色 和 非特 色 文章 ,并 且 通 过 CalSWIM 做 了 案例 分 析 ; 
Y. Suzuki' 从 词 条 内 容 的 存活 率 角 度 对 词 条 质量 进行 
评价 ,并 开发 出 了 一 套 词 条 排序 方法 ;X. Li ”等 通过 
试用 文章 和 编辑 者 之 间 的 关系 ,开发 了 几 种 模型 对 维 
基 百 科 文 草 进行 排名 ,并 且 提 出 使 用 手动 评估 来 辅助 
自动 评估 是 可 行 的 质量 评估 解决 方案 

有 些 学 者 还 利用 链接 分 析 的 思想 ， 可 以 计算 词 条 
质量 的 排序 。D. Wilkinson 等 ”等 利用 PageRank 算法 
思想 先 对 词 条 进行 分 级 ,然后 分 析 同 一 等 级 中 的 词 条 
质量 ,进而 发 气 优 质 词 条 的 共性 ; 肖 奎 , 罗 保 山 ” 等 通 

过 限定 领域 ,应 用 HITS 算法 的 思想 ,利用 特定 领域 内 

编辑 者 的 信誉 度 ,自动 计算 后 得 出 词 条 的 质量 值 。K. 
Wu™ 等 通过 对 六 种 不 同 语言 维基 百科 的 修订 历史 做 
了 网 络 分 析 ,探讨 了 文章 与 贡献 者 之 间 的 互动 的 网 络 
结构 对 UGC 质量 的 影响 。 

综 上 所 述 , 目 前 的 研究 主要 还 是 集中 在 词 条 内 容 
维度 .网络 维度 、 编 辑 维度 等 单 维 度 视 角 下 的 评价 ,多 
维度 视角 下 的 词 条 质量 评价 研究 还 存在 欠缺 。 同 时 除 
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了 上 述 学 者 研究 中 使 用 的 特征 指标 外 ,百度 百科 的 词 
条 属性 中 还 包含 了 用 户 的 使 用 行为 特征 指标 : 词 条 使 
用 者 的 浏览 分享 与 点 赞 数值 ,而 目前 基于 此 类 指标 的 
百科 词 条 评价 与 分 类 研究 却 非 常 少见 。 因 此 本 研究 拟 
解决 两 个 问题 :中 如 何 将 用 户 行为 指标 纳入 百度 百科 
词 条 评价 体系 中 来 ;@ 如 何 从 多 维度 视角 对 百度 百科 
词 条 进行 综合 评价 。 


针对 提出 的 两 个 研究 问题 ,本 文 参考 了 国内 外 学 
者 提出 的 百科 词 条 评价 特征 指标 ,结合 2018 年 百度 百 
科 最 新 版 本 的 用 户 界面 的 可 获取 内 容 ,选取 了 4 个 维 
度 共 12 个 量化 指标 作为 研究 对 象 : 

二 =(1 ) 内容 维 度 : 内 容 长 度 指标 即 摘 要 长 度 .正文 长 
度 村 图片 数 。 内 容 长 度 指标 代表 了 词 条 内 容 的 丰富 程 
麻 x 相 较 Blumenstock 使 用 单词 数量 作为 指标 ,研究 更 
细 花 地 区 分 了 摘要 与 正文 的 长 度 ,同时 加 上 图 片 数量 ， 
使 得 数据 更 有 说 服 力 ;次 要 内 容 指标 即 参考 资料 数量 、 
标签 数量 infobox 数量 。 三 者 并 不 像 词 条 长 度 与 链接 
指 态 直接 与 词 条 质量 相关 ,而 是 从 侧面 反映 词 条 的 细 
忆 (2) 网 络 链接 维度 :出 链 与 人 链 数 量 。 出 链 与 人 
链 疫 量 作为 链接 分 析 中 的 常用 指标 ,能 够 体现 词 条 在 
整 玉 记 条 网 络 的 联通 程度 ,拥有 高 出 链 、 入 链 量 的 词 
容易 吸引 用 户 从 其 他 词 条 转 和 人 或 转 出 到 其 它 词 
条 。 症 体现 词 条 被 使 用 概率 的 重要 指标 。 

:三 (3 ) 用 户 使 用 行为 维度 :浏览 量 、 点 凌 量 、 转 发 量 。 
下 三 词 条 质量 的 高 低 与 否 ,很 大 程度 上 与 用 户 使 用 行 
为 相关 联 , 高 浏览 .点 痪 转发 的 词 条 相 比 无 人 问津 的 
词 条 , 词 条 质量 必然 也 会 存在 差别 。 

(4) 编 辑 维度 : 相 较 于 词 条 生成 时 间 , 词 条 编辑 次 
数 能 更 好 地 度量 词 条 的 生命 周期 ,体现 出 高 更 新 频率 
的 高 质量 词 条 与 长 时 间 无 人 维护 的 低 质量 词 条 间 的 差 
距 。 

由 此 ,对 于 要 解决 的 两 个 研究 问题 ,本 文 得 出 了 以 
下 解决 方案 : 

(1) 如 何 将 用 户 行为 指标 纳入 百度 百科 词 条 评价 
体系 中 来 。 根 据 百度 百科 最 新 版 本 的 用 户 界面 可 获取 
内 容 ,将 浏览 量 、 点 赞 量 和 转发 量 作为 衡量 用 户 使 用 行 
为 的 三 个 主要 指标 ,由 此 单独 提出 百度 百科 词 条 多 维 
度 评价 指标 体系 中 的 用 户 使 用 行为 维度 。 

(2) 如 何 从 多 维度 视角 对 百度 百科 词 条 进行 综合 
评价 。 本 文 首先 基于 研究 提出 的 4 维度 12 指标 体系 ， 


局 
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抓 取 2018 年 百度 百科 共 1 500 万 余 词 条 的 所 有 内 容 并 
统计 指标 数值 ;然后 基于 信 权 法 计算 每 个 指标 的 权重 
系数 ,度量 每 个 指标 对 词 条 质量 的 影响 比重 ;最 后 基于 
灰色 关联 分 析 方 法 对 所 有 百度 百科 词 条 进行 综合 评价 
并 做 出 排序 。 

具体 使 用 的 方法 有 : 
3.1 指标 权重 度量 方法 

为 了 衡量 每 个 指标 对 词 条 综合 评价 结果 的 影响 力 
大 小 ,研究 选用 炉 权 法 计算 每 个 指标 的 炉 权 。 

炉 权 法 是 基于 Shannon 信息 论 中 信息 粹 ”概念 提 
出 的 一 种 指标 权重 赋值 方法 ,可 以 在 排除 决策 者 偏好 
的 情况 下 评估 每 个 参数 的 权重 。 粒 权 法 的 计算 步骤 如 

(1) 对 现 有 百度 百科 词 条 指标 决策 矩阵 D(m 个 评 
价 指标 ,n 个 词 条 样本 ) 进行 标准 化 处 理 ,得 到 标准 化 
和 矩阵 R: 


R= (Ty) wx 
其 中 7 是 指 第 i 个 词 条 的 在 第 j 个 指标 上 的 标准 


D.—-min|D.| 人 
7 max|D,| -min|D,| 人 
公式 (1) 
(2) 计 算 所 有 指标 的 烂 值 H: 
Hi= -kyfmlnfy,i=1,2,3,…,m 公式 (2) 
其 中 : 
1 
k= 
fi = 
pa 
(3) 计 算 所 有 指标 的 烂 权 o: 
1-H., 
Wi = 公式 (3) 
m- 2H, 


式 中 0<ow,<1, 且 YY. w=1。 

炉 权 法 计算 的 参数 权重 越 大 ,参数 对 评估 结果 的 
影响 也 就 越 大 。 
3.2 词 条 质量 评价 方法 

灰色 关联 分 析 (CRA ) 模型 最 初 由 灰色 系统 理论 的 
创始 人 邓 聚 龙 教授 提出 ,他 于 20 世纪 80 年 代 提 出 了 
这 一 理论 。 邓 聚 龙 教授 的 CRA 模型 在 应 用 中 也 被 称 
为 邓 氏 灰色 关联 分 析 模 型 或 灰色 关联 分 析 模 型 。 目 前 
GRA 模型 广泛 应 用 于 多 目标 优化 。 本 研究 中 的 具体 
评价 步骤 如 下 : 


何 振 宇 ,， 董 祥 祥 ， 朱 庆 华 . 多 
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维度 视角 下 百度 百科 词 条 评价 指标 构建 [J]. 图 书 情报 工作 ,2019 ,63(12) :114 - 120. 


(1) 根 据 选 定 的 评价 指标 ,收集 并 统计 实验 数据 ， 
构建 决策 矩阵 进行 标准 化 处 理 ( 同 3.1 的 标准 化 过 
程 ) 。 

(2) 计算 每 组 词 条 指标 与 最 优 值 间 的 关联 系数 : 


克 1 六 . 
min|min( |z; —z01)| + Xmax|max( |z; -zo|)| 
Esl J=1 [| 7=1 


C=- 六 ”= 
lz —z0;l + x max | max 人 lz =20 |) 
公式 (4) 
式 中 为 分 辩 系 数 , 且 me (0,1)。 一 般 来 说 ,mn 


的 取 值 决 定 了 关联 系数 之 间 的 差异 大 小 ,n 越 小 ,分 辨 
能 力 越 强 ,本 研究 m 取 值 为 0.5。 关 联系 & 则 代表 了 第 
条 在 第 j 个 指标 上 与 最 优 值 的 关联 程度 。 
(3) 根 据 粹 权 法 得 到 的 权重 系数 ,计算 每 个 词 条 
的 关联 度 , 进 而 作出 综合 评价 。 


3 这 数据 获取 

OD 研究 使 用 数据 的 抓 取 流 程 如 下 : 

ST(1) 初 步 抓 取 : 通 过 分 析 百 度 百 科 站 点 链接 结构 ， 
存在 形 如 http://baike. baidu. com/view/ 


09000010. htm 的 链接 地 址 ,通过 遍历 数字 ID ,可 以 得 

到 全 系列 初始 链接 。 利 用 Python 的 urllib2 库 , 可 以 将 
载 到 本 地 。 

(2) 数 据 清洗 :首先 确定 要 把 取 的 百度 百科 页 面 

的 弹 构 元 素 例如 : 主 标题 .副标题 摘要、 正文 .图 片 、 

内 链 . 外 链 等 。 同 时 建立 一 个 名 为 Page 的 类 ,用 于 描 

夫人 信和 息 ,其 中 标题 等 用 文本 变量 表示 ,链接 等 用 列 


指标 权重 可 视 化 


0.2, 
= 0.185 


,一 0.18 
0.171 
© 0.160 
0.16| 
0.14| 
0.12| 
0.08 
on 0.052 0.052 
0.04| 
0.022 
0.02, 0.018 
川 洗 0. 上 周 
0. 


指标 1 指标 2 指标 3 日 4 指标 5 指标 6 指标 7 指标 8 指标 9 指标 I0 指 标 11 | 12 
指标 名 称 


权重 
So 


表 表示 。 
(3) 数 据 入 库 : 建 立 一 个 MySQL 数据 库 , 库 中 建立 
一 个 名 为 entry 的 表 , 将 上 述 页 面 结构 元 素 用 表 中 的 属 
性 表示 ,使 用 pymysql 库 将 清洗 得 到 的 数据 写 和 数据 
库 。 


(4) 二 次 抓 取 : 通 过 分 析 发 现 ,初次 抓 取 得 到 的 页 
面 中 包含 大 量 形 如 /item/abce 形式 的 相对 链接 ,链接 目 
标 为 其 他 词 条 页 面 

故 以 初次 页 面 采集 得 到 的 内 链 作为 种 子 URL 地 
址 ,再 次 使 用 步骤 1 -3 中 的 方法 ,进行 数据 抓 取 和 清 
洗 , 数 据 二 次 抓 取 时 ,需要 判断 URL 是 否 已 经 被 写 人 
数据 库 , 若 存在 相应 记录 则 不 再 重复 抓 取 。 


4 研究 结果 及 分 析 


4.1 指标 权 值 
根据 全 部 百科 词 条 数据 生成 的 决策 矩阵 ,应 用 和 
权 法 求 出 所 有 指标 的 焙 权 值 如 表 1 与 图 1 所 未: 
表 1 百科 词 条 指标 权重 表 

指标 序号 指标 1 ”指标 2 ”指标 3 ”指标 4 ”指标 5 ”指标 6 
指标 名 称 摘要 字数 正文 字数 ”infobox 标签 数量 ”出 链 ”入 链 

权重 0.022 0.041 0.011 0.018 0. 086 0.171 

站 标 序号 指标 7 ”指标 8 。 指标 9 ”指标 10 指标 指标 12 
指标 名 称 参考 资料 图 片 数 ”浏览 量 ”转发 量 点 先 量 编辑 次 数 

权重 0.052 0.052 0.160 0. 185 0.175 0. 026 


i 指标 权重 可 视 化 (降序 排列 ) 


0.052 0.052 


| 

0.04 | 

| 

0.02 | 
0 


0.041 
0.026 
0.022 
0.018 
中 口 


指标 10 指 标 11 指 标 6 指标 9 指标 5 指标 7 指标 8 指标 2 指标 12 指 标 1 指标 4 指标 3 
指标 名 称 


图 1 百科 词 条 指标 权重 


117 


团 定 傅 良 三 作 


第 63 卷 第 12 期 2019 年 6 月 


由 结果 可 以 看 出 ,权重 最 高 的 四 个 指标 包括 三 个 
用 户 使 用 行为 指标 一 一 浏览 点 赞 、 转 发 量 , 入 链 数 的 
权重 也 与 三 者 持平 。 出 链 数 作为 一 种 “利他 ”指标 , 权 
重 不 及 入 链 数 的 一 半 , 但 仍然 明显 高 于 剩余 指标 。 
4.2 综合 评价 结果 

根据 炉 权 法 得 出 的 指标 权重 ,应 用 到 灰色 关联 分 
析 算 法 中 ,继而 计算 出 所 有 词 条 的 综合 评价 得 分 , 即 词 
条 质量 评分 ,并 依 此 做 出 排名 : 


表 2 词 条 质量 排名 


台湾 (中 华人 民 共 和 国 所 属地 区 ) , 刘 诗 诗 ,中 央 电 视 台 
纪录 频道 ,宇智 波 佐助 ,南京 路 (上 海南 京 路 ) ,射手 座 
(占星 学 ) ,后 宫 动漫 ,韩国 电视 剧 ,DOS(DOS 操作 系 
统 ) ,王力宏 
词 条 质量 排名 后 十 相关 峰 ,游戏 界面 , 龙 鼓 滩 发 电厂 ,社会 隔离 ,原生 海岸 ， 
压缩 算法 ,兼容 性 测试 , 汉 诸 塔 问题 , 单 晶 硅 太 阳 电 池 组 
件 , 二 氧化 碳 税 


词 条 质量 排名 前 十 


高 排名 词 条 和 低 排 名 词 条 各 维度 指标 对 比如 表 3 
所 示 : 


表 3 词 条 指标 对 比 
词 条 名 摘要 长 度 “正文 长 度 “Infobox 数 标签 数 “出 链 数 “人 链 数 参考 资料 图 片 数 。 ”浏览 量 转发 量 。 点 赞 量 《编辑 次 数 

台湾 779 24 561 30 0 2213 33 981 242 99 21 386 111 1661 53 979 3 902 
刘 诗 诗 427 6522 19 如 347 1 345 131 102 400 725 989 3 287 i853713 3 292 
。 中央 电视 台 纪 录 频 道 172 2 270 9 0 27 2 626 14 全 660 453 93 1 367 2817 
* 宇智 波 佐助 394 19 307 26 2 229 454 98 100 12 828 679 815 44 387 2 601 
南京 路 597 21 395 10 3 384 529 和 9 1 303 856 89 1 796 2 203 

相关 峰 98 1 060 3 0 3 0 0 8 343 0 0 0 

158 1 875 3 1 7 2 0 1 2 438 0 0 0 

269 $1s 6 0 1 0 0 1 129 0 0 0 

223 978 7 0 4 3 0 536 0 人 0 

86 645 6 0 2 0 下 49 0 0 0 

昌 表 3 可 以 看 出 ,综合 评价 排名 靠 前 的 词 条 大 部 相对 较 高 的 炉 权 。 


4 指标 权重 结果 吻合 ,标签 数 的 权重 为 12 个 指标 中 


三 中 央 电 视 台 作为 综合 评分 排名 第 3 的 词 条 ,与 前 5 
秋 穴 4 个 词 条 相 比 , 除 标签 数 和 编辑 次 数 差异 不 大 ,其 
余 特 标 均 不 占 优势 ,仅仅 靠 2 626 的 入 链 数量 便 能 位 

居 第 3 ,说 明了 词 条 链接 网 络 中 优势 位 置 的 重要 性 。 
基于 入 权 法 与 灰色 关联 分 析 做 出 的 词 条 质量 评 
佑 ,可 以 清晰 体现 出 不 同 词 条 间 的 质量 差别 。 本 研究 
不 仅 使 用 了 国内 外 学 者 相关 研究 中 使 用 过 的 特征 指 
持 


标 ,还 额外 加 入 了 用 户 使 用 行为 指标 ,结果 表明 这 类 和 
标 在 词 条 质量 综合 评价 中 影响 力 与 网 络 链接 指标 
平 , 远 高 于 其 他 指标 ,因此 将 用 户 行为 数据 纳入 百科 词 
条 质量 评价 研究 中 是 有 意义 的 。 


本 研究 在 结合 国内 外 学 者 对 百科 词 条 研究 的 理论 
基础 上 ,基于 四 个 维度 提取 了 百度 百科 词 条 的 12 个 量 
化 指标 ,并 依 此 对 百度 百科 词 条 做 出 综合 评价 。 

将 用 户 使 用 行为 维度 指标 纳入 词 条 评价 指标 体系 
中 是 可 行 且 有 必要 的 ,三 个 用 户 使 用 行为 指标 均 拥 有 
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(2) 用 户 使 用 行为 指标 与 网 络 指标 的 重要 性 明显 
高 于 其 他 指标 ,说 明 高 使 用 价值 与 处 于 词 条 链接 网 络 
优势 位 置 的 词 条 相 较 于 内 容 优势 的 词 条 ,影响 力 更 大 。 
研究 所 选取 的 指标 都 是 基于 统计 的 出 来 的 可 量化 
旨 标 ,未 来 将 探讨 如 何 将 文本 丰富 度 .严谨 性 、 编 辑 者 
声誉 等 定性 特征 与 定量 特征 相 结 合 。 
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Construction of Baidu Encyclopedia Entry Evaluation Index Under 
Multi -dimensional Perspective 
He Zhenyu Dong Xiangxiang Zhu Qinghua 
School of Information Management, Nanjing University, Nanjing 210023 
Abstract. [ Purpose/significance | The study incorporates user behavior into the encyclopedia entry evaluation sys- 
tem, and comprehensively evaluates Baidu Encyclopedia entries from a multi - dimensional perspective. [ Method/ 
process | From four dimensions, the study selected 12 quantitative indicators as research indicators, and comprehensively e- 
valuated Baidu Encyclopedia entries. [ Result/conclusion | User use behavior indicators and link indicators play a relatively 
important role in comprehensive evaluation of entries; This study enriches the evaluation system of encyclopedia entry re- 
séaréh, but the limitation is that it is difficult to accurately quantify without considering richness and rigor. Characteristics. 


. Keywords: Baidu Encyclopedia entry GRA entropy weight method comprehensive evaluation 


关于 举办 2019 年 图 情 前 沿 热 点 学 术 研 讨 会 茎 论文 写作 与 投稿 研修 班 的 通知 


信息 技术 .信息 环境 和 用 户 需 求 与 行为 的 变化 ,驱动 图 书馆 学 情报 学 研究 范式 .学科 体系 .研究 方法 和 研究 内 容 发 生 新 的 变化 。 新 的 时 代 ， 
[于 馆 学 情报 学 研究 需要 保持 理论 与 学 术 的 前 脆性 ,跟踪 图 情 研究 热点 ,捕捉 图 情 研究 前 沿 , 更 好 地 适应 和 推动 图 书 情报 事业 的 创新 发 展 。 为 
让 书馆 学 情报 学 的 理论 研究 与 学 术 ,共同 探讨 图 书馆 学 情报 学 研究 热点 与 前 沿 关键 性 问题 ,提升 图 情 研究 与 论文 写作 能 力 ,《 图 书 情报 工 
号 加 志 社 和 广州 图 书馆 发 起 并 联合 图 情 期 刊 联盟 网 ,广州 市 图 书馆 学 会 ,以 及 国内 其 他 图 书馆 学 情报 学 专业 学 术 期 刊 组 织 召 开 *2019 年 图 情 
前 演 了 点 学 术 研讨 会 如 论 文 写 作 与 投稿 研修 班 ", 在 探讨 图 情 前 沿 热点 的 同时 ,为 作者 提供 论文 选 题 ,写作 与 投稿 指导 ,搭建 图 情 学 者 - 编辑 - 
渎 者 = 作者 学 术 交 流 的 平台 。 欢 迎 全 国 各 级 各 类 图 书 情报 人 员 、 图 情 期 刊 编辑 ,大 学 师 生 、 相 关 企业 参 会 。 欢 迎 携 纸 质 文章 参 会 ,文章 将 由 到 
会 国 其 刊 主编 现 场 点 评 ,优秀 论文 意向 性 录用 。 


Ps 、 会 议 主 题 2. 论文 写作 与 投稿 研修 班 : 2019 年 10 月 10-12 日 
图 书馆 学 情报 学 研究 前 沿 与 热点 嗓 论 文 写作 与 投稿 10 日 上 午 报到 ,10 日 下 午 ,11 日 研修 班 ,12 日 离 会 。 


主题 : ` 会 议 报名 


如 书馆 学 情报 学 研究 的 现状 与 趋势 1. 会 议 费 
9 新 时 代 图 书馆 的 主要 特征 与 能 力 建设 只 参加 研讨 会 或 研修 班会 议 费 为 每 个 900 元 ,研讨 会 和 研修 班 
3. 图 书馆 学 情报 学 理论 与 实践 创新 的 动力 机 制 均 参 加 会 议 费 优惠 至 1600 元 (联盟 网 会 议 免 费 ) 。 注 :广州 本 地 参 会 
4. 需求 与 技术 驱动 下 的 图 书 情报 研究 范式 变革 代表 可 享受 每 个 会 议 700 元 的 优惠 价 。 交 通 ,住宿 费 自理 。 
5. 人 工 智能 等 新 技术 的 应 用 与 影响 本 次 会 议 费 可 现场 交 现金 .刷卡 (会 后 快递 发 票 ) ,也 可 提前 公 对 
6. 图 书馆 的 资源 体系 重 构 与 服务 能 力 再 千 公转 账 (报到 现场 领取 发 票 ) 。 
7.“ 双 创 “ 双 一 流 "环境 下 图 书馆 的 新 需求 与 新 变革 账户 信息 ; 
g. 图 书馆 学 情报 学 期 刊 质量 与 影响 力 建设 开户 行 :中 国 建设 银行 股份 有 限 公 司 中 关 村 分 行 
9. 图 情 论文 选 题 .课题 申请 与 写作 投稿 策略 账号 :1100 1007 3000 5926 1059 
10 其 他 妇 款 单位 :《 图 书 情报 工作 》 杂 志 社 
二 组 织 机 构 注 : 请 在 转账 时 备注 参 会 人 姓名 


2. 报名 方式 
本 次 会 议 采取 网 上 报名 方式 ,请 扫描 
右 方 二 维 码 进行 报名 


主办 单位 :《 图 书 情报 工作 》 杂 志 社 ;图 情 期 刊 联盟 网 
承办 单位 :广州 市 图 书馆 学 会 ;广州 图 书馆 


三 ,会 议 时 间 与 地 点 会 议 报名 截止 日 期 :2019 年 9 月 15 日 

时 间 :2019 年 10 月 8-12 日 3. 报名 联系 人 : 谢 老 师 ,电话 : 010 -”[ 国 ] 

地 点 :广州 图 书馆 82623933 

具体 安排 如 下 : 请 参 会 代表 务必 加 入 《图 书 情报 工作 》 杂 志 社 QQ 群 进 行 会 前 、 
1. 图 情 前 沿 热点 学 术 研 讨 会 : 2019 年 10 月 8-10 日 会 后 咨询 , 群 号 :323732873 ,申请 时 备注 单位 + 实名 。 

8 日 下 午 报到 ,9 日 .10 日 上 午 研讨 会 ,10 日 下 午 离 会 ; 《图 书 情报 工作 》 杂 志 社 
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